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摘 要 : 特征 选择 技术 在 大 数据 分 析 、 图 像 处 理 、 生 物 信息 学 等 领域 具有 重要 作用 。 在 实际 应 用 中 ， 降 低 分 类 错误 率 
和 减少 提取 出 的 特征 数量 便于 后 续 数据 的 利用 ， 往 往 是 两 个 冲突 的 目标 。 基 于 拥挤 、 变 异 和 支配 策略 的 多 目标 粒子 群 
特征 选择 (crowding, mutation, dominance particle swarm optimization for feature selection, CMDPSOFS) 算法 是 一 种 
面向 特征 选择 应 用 中 特征 数量 最 小 和 分 类 错误 率 最 低 的 双 目 标 优 化 算法 。 它 使 用 三 种 不 同 的 变异 机 制 ， 用 于 保持 群体 
多 样 性 和 平衡 全 局 、 局 部 搜索 的 能 力 ， 但 其 中 的 均匀 变异 使 算法 的 随机 性 大 大 增加 ， 产 生 较 多 适应 值 差 的 解 ， 降 低 了 
算法 收敛 速度 。 改进 的 CMDPSOEFS-I 算法 将 差分 进化 算法 中 的 变异 算 子 和 选择 操作 引入 到 CMDPSOFS 算法 中 , 实验 
结果 表明 CMDPSOFS-II 算法 在 特征 选择 上 得 到 比 原来 的 方法 更 优 的 结果 ， 更 好 地 平衡 了 全 局 和 局 部 搜索 能 
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Multi-objective particle swarm optimization algorithm using 
differential evolution for feature selection 


Li Min*^, Zhang Guohao*, Chen Ziliang^, Guo Zhiyong^, Hu Xiaomin*' 
(a. School of Information Engineering, b. School of Computers Guangdong University of Technology, Guangzhou 510006, 
China) 


Abstract: Feature selection technology plays an important role in big data analysis, image processing, bioinformatics and 
other fields. In practical applications, the objectives of reducing the classification error rate and reducing the number of 
extracted features for facilitating the use of subsequent data, are often two conflicting goals. The multi-object particle swarm 
optimization based on crowding, mutation, dominance for feature selection (CMDPSOFS) is a kind of bi-objective 
optimization algorithm with the minimal number of features and classification error rate in feature-oriented selection 
applications. The algorithm uses three different mutation mechanisms for maintaining swarm diversity and balancing global 
and local search capabilities. However, the uniform variation increases the randomness of the algorithm, resulting in the 
generation of worse solutions, which reduces the convergence speed of the algorithm. This paper proposed an improved 
CMDPSOFS-II algorithm to introduce the mutation and selection operations of differential evolution algorithm into the 
CMDPSOFS algorithm. The experimental results show that the CMDPSOFS.II algorithm is superior to the original method in 
feature selection and better balances global and local search capabilities. 
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A do oie 

索 空 间 的 增 大 而 导致 分 类 性 能 下 降 。 通 过 特征 选择 ， 提 取 数 据 

分 类 ， 作 为 在 机 器 学 习 和 数据 挖掘 中 的 重要 步骤 ， 其 作用 ”集中 有 代表 性 的 特征 ， 是 缩短 分 类 器 的 训练 时 间 和 提高 分 类 能 

是 根据 数据 集中 的 特征 来 将 每 个 实例 分 类 到 不 同 的 集合 中 站。 力 的 常用 手段 站。 
一 般 来 说 ， 在 没有 任何 先 验 知识 的 情况 下 ， 人 们 很 难 去 确定 数 特征 选择 技术 在 大 数据 分 析 外 、 图 像 处 理由 、 生 物 信 息 学 
据 集 中 哪些 特征 是 对 分 类 有 效 的 。 一 个 数据 集 经 常会 引入 大 量 。 站 等 领域 具有 重要 作用 。 在 一 个 数据 集中 ， 随 着 特征 数 的 增 
的 特征 ， 这 里 面包 含 很 多 有 关 的 、 无 关 的 和 多 余 的 特征 。 对 于 ” 多， 搜索 空间 的 大 小 明 指 数 增长 ， 大 多 数 情 况 下 不 可 能 做 到 穷 
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举 搜索 。 为 了 解决 这 个 问题 ， 许 多 搜索 方法 被 应 用 到 特征 选择 和 位 置 更 新 公式 如 式 〈1) (D 所 示 。 

中 。 如 Wang 等 人 名 提出 应 用 在 特征 选择 的 新 型 细菌 算法 ， 人 i 

Belciug 等 人 中 提出 的 基于 回归 的 特征 选择 算法 ， 段 洁 等 人 名 提 l | Do mE 

E T dE T SBORUBS FE 0] e Ei 2 2 REE IET ETUR VEU 3 S501 Xj = Xj tV (2) 

提出 的 基于 DFS 与 SVM 的 特征 选择 算法 。 其 中 : o 为 惯性 权重 ， 用 来 控制 上 次 的 进化 结果 对 本 次 进化 的 
粒子 群 优 化 Cparticle swarm optimization, PSO) 作为 鲁 棒 影响 程度 ，cl 和 co 为 加 速 系数 ， 作 用 是 衡量 粒子 的 历史 最 优 对 

性 和 适用 性 高 的 群体 智能 优化 方法 ， 也 被 应 用 到 特征 选择 中 。 其 进化 的 引导 程度 ; ri 和 为 [0,1] 内 的 随机 数 ，pij 和 gi; 2) 

Naeini 等 人 由 利用 粒子 群 算法 用 于 高 空间 分 辨 率 卫 星 图 像 分 为 粒子 i 在 维度 j 的 个 体 最 优 解 pbest 和 全 局 最 优 解 gbest; vij 

类 ， 选 择 出 的 特征 组 合 获得 了 更 高 的 识别 率 。Zhang 等 人 09] 提 被 一 个 预 设 的 最 大 速度 vmax 所 限制 ，vi, € [-Vmax, Vmax]。 当 得 出 

出 一 种 基于 群体 智能 的 算法 用 于 解决 声学 缺陷 检测 中 的 特征 选 预 设 的 结果 或 者 达到 预 设 的 迭代 次 数 时 ， 算 法 结 

择 问 题 。 在 实际 应 用 中 ， 除 了 降低 分 类 错误 率 这 单一 目标 之 1.2 多 目标 优化 

外 ， 往 往 还 需要 减少 提取 的 特征 数量 ， 降 低 获 得 所 需 特征 取 值 当 一 个 最 优 解 的 选择 需要 权衡 两 个 或 以 上 的 目标 时 , 而 且 

的 总 成 本 。 这 些 特征 需求 与 降低 分 类 错误 率 ， 往 往 是 两 个 冲突 这 些 目标 之 间 存 在 相互 矛盾 的 关系 ， 那 么 这 个 问题 称 为 多 目标 

的 目标 。 优化 问题 。 多 目标 优化 问题 包含 最 大 化 或 最 小 化 问题 ， 多 目标 
多 目标 优化 是 求解 多 个 冲突 优化 目标 的 有 效 手段 。Zhang ”最 小 化 问题 可 以 用 式 (3 ) 表示 , 最 大 化 问题 与 最 小 化 问题 类 似 ， 

等 人 0 提出 多 目标 粒子 群 算法 解决 基于 代价 的 特征 选择 问 因此 本 文选 取 最 小 化 问题 进行 研究 。 

题 ， 用 于 提高 分 类 能 力 并 且 最 小 化 特征 涉及 的 代价 这 两 个 目 最 小 化 F - Uf C9, f; Q9... f, Q0] (3) 

br. Xue 等 人 0 把 最 小 化 提取 的 特征 数量 和 分 类 错误 率 作为 特 其 中 : x 为 决策 向 量 ，fi(x) 为 关于 x 的 目标 函数 ; 为 需要 优化 

征 选 择 问题 的 两 个 目标 ， 并 提出 两 种 多 目标 粒子 群 算法 ， 分 别 的 目标 数 。 

是 基于 非 支 配 排序 的 特征 选择 粒子 群 算法 (nondominated 当 决 策 向 量 w 和? 满足 以 下 两 个 条 件 时 ， 则 称 z 支 配 ve 

sorting PSO for feature selection, NSPSOFS ) 和 基于 拥挤 、 变 Vi:f,(u)zf,(v) ie(L2.3,..k] (4) 

异 和 支配 的 特征 选择 粒子 群 算法 (C crowding, mutation, and J3:f;Q0sf,v) je{l,2,3,...k} (5) 


法 的 最 大 


最 优 的 继承 性 ， 更 符合 粒子 群 优化 算法 的 思想 


dominance PSO for feature selection, CMDPSOFS) ) 。 这 两 种 算 
区 别 在 于 CMDPSOFS EARE PRE S MT 


局 部 


， 而 不 是 通过 排 


序 使 得 每 次 迭代 后 的 新 粒子 与 前 代 几 乎 毫 无 关联 。 测 试 也 表明 
CMDPSOFS 在 大 多 数 情况 下 获得 比 NSPSOFS 更 优 的 解 。 然 而 
CMDPSOFS 中 使 用 的 均匀 变异 使 算法 的 随机 性 大 大 增加 ， 产 


生 较 多 适应 值 差 的 解 ， 降 低 了 算法 的 收敛 速度 。 


本 文 提出 一 种 改进 


的 CMDPSOFS-I 算法 ， 该 算法 将 差分 
进化 03 算 法 作为 变异 算 子 引入 到 CMDPSOFS 算法 中 ， 替 换 均 
匀 变 异 生成 新 粒子 ， 并 加 入 差分 进 


化 的 选择 操作 。 该 算法 引入 


了 差分 进化 的 变 员 


自 适应 选择 变异 


FEF 和 选择 方式 ， 使 得 算法 可 以 在 迭代 过 程 中 基 
于 向 量 差 分 的 特点 


的 步 长 ， 保 持 了 群体 多 样 


性 ， 


局 部 搜索 能 力 。 


atc 
1 8E 
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提高 了 变异 


操 人 


LE 的 效率 。 通 过 对 


系列 特征 选择 问题 进 


行 测试 比较 ， 实 验 结果 表明 这 种 改进 的 CMDPSO- 开 算法 在 特 


征 选择 上 得 到 比 原 来 的 方法 更 优 的 结果 ， 更 好 地 平衡 了 全 


粒子 群 优化 算法 
粒子 群 优 化 算法 最 早 由 Kennedy 等 人 [14 


局 和 


提出 ， 算 法 初始 


化 为 一 群 随机 粒子 (随机 
之 后 对 整个 粒子 群体 进行 近代， 在 每 次 过 
自身 所 找到 的 最 优 解 pbest 和 全 局 最 优 解 


解 )， 每 个 粒子 


有 自身 的 速度 和 位 置 。 
只 中 ， 每 个 粒子 通过 


gbest 来 更 新 自己 。 设 


粒子 i 在 维度 j 的 速度 为 vj， 位 置 为 xij， 粒 子 的 速度 更 新 公式 


xi, [H x2 5j x3 互 不 文本 


这 个 


最 优 解 在 搜索 空间 组 成 的 表 
标 问题 对 应 


图 1 


如 图 1 所 示 的 双 


解 为 柏拉图 最 


给 出 了 两 


mi 


Lo 


标 最 小 化 问题 , 可 知 on 既 支 配 xo 又 支配 


当 一 个 解 不 受 其 他 任何 解 支配 时 ， 称 


最 优 解 (Pareto-optimal solution). FF 


面 称 为 柏拉图 前 


的 柏 拉 


a 


线 。 图 


前 沿 


代表 柏拉图 前 沿 上 的 解 ， 


解 文 


1.3 


evolution, 


该 算 


的 全 


已 


有 柏拉图 


沿 (Pareto front). 


中 的 实心 点 


门 相互 之 间 是 互 不 支配 且 不 被 


配 。 


m A 
目标 2 
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I X 


» 
目标 1 


标 最 小 化 问题 


Fig.l Bi-objective minimization problem 


差分 进化 


1996 年 ，Storn 和 Price 提出 了 差分 进 
DE) 05， 它 是 以 随机 多 维 数 ] 
法 主要 思想 是 在 群体 内 中 通过 个 体 差异 变异 产生 待 选 个 
体 ， 再 经 过 交叉 和 选择 操作 以 达到 条 
局 收敛 性 和 和 鲁 棒 性 ， 


j 


其 他 


ILIE (Differential 
EIERE. 


LE 常 适合 


f 体 的 进化 。 由 


算法 主要 分 为 初始 化 、 变 异 、 交 叉 和 选择 步 又 
设 的 空间 内 初始 化 群体 的 每 个 个 体 ， 设 种 群 规 模 为 


TRAR 


用 来 求解 最 优化 问题 。 


。 首 先 在 预 
P, D 为 优 
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化 问题 的 维 数 。 第 i 个 个 体 的 向 量 表示 为 


G G G G ` : x X 
Xp — (GGA) dB G 为 个 体 i 的 代数 。 群 体 中 


每 个 个 体 的 向 量 都 通过 式 (6) 进行 变异 操作 。 

v“! 2y6 + K($, —v£) (6) 
其 中 : on. m. n UPIP ENHA NEF i ABEN KEK 
为 变异 因子 ， 为 [0,2] 间 的 常量 。 利 用 式 〈7) 中 对 变异 后 的 个 体 
viar 进行 交叉 操作 。 


xi F un 


ij 


G+1 如 果 rand, ; = CR 或 j Iana 


其 中 : i212, 4P:j2i212,.4D: randh 为 [0.0] 间 的 随机 数 ; 
CR 为 [0,1] 间 的 交叉 概率 ;Jana 在 [1,2,…,D] 内 随机 选择 。randji 
的 存在 确保 了 交叉 个 体 uoa 与 父 代 个 体 xic 不 完全 相同 。 然后 
利用 式 8) 进行 选择 操作 ， 其 中 : 为 目标 函数 ， 这 里 的 /为 


三 


最 小 化 问题 。 


BE 如 果 f@w)<f07) 四 


x? 否则 


其 中 : i212,.,P. 

差分 进化 算法 简单 且 通 用 , 具有 利用 个 体 局 部 信息 和 全 局 
信息 指引 算法 进一步 搜索 的 能 力 ， 在 许多 情况 下 ， 都 可 以 很 容 
易 地 与 其 他 算法 进行 混合 从 而 生成 性 能 更 优 的 算法 ， 如 陈 颖 等 
人 109 提出 的 基于 并 行 差分 进化 算法 ， 差 分 进化 算法 同时 也 被 研 
究 用 来 选择 支持 向 量 机 的 参数 0 。 
2 


多 目标 优化 粒子 群 特征 选择 算法 


2.1 问题 定义 

特征 选择 是 指 从 一 个 拥有 一 定 特征 数 的 数据 集中 选择 一 
组 最 优 特征 的 过 程 。 但 由 于 各 特征 之 间 的 关系 比较 复杂 ， 大 量 
的 特征 之 间 的 组 合 数量 过 多 ， 无 法 将 每 个 组 合 都 进行 评估 ， 所 
以 特征 选择 需要 选用 可 行 的 算法 进行 优化 。 特 征 选择 的 困难 在 
于 特征 之 间 的 组 合 ,一 个 有 关 的 特征 与 其 他 特征 组 合 到 一 起 时 ， 
可 能 会 变 成 多 余 的 ， 或 者 无 关 的 或 者 多 余 的 特征 与 其 他 特征 组 
合 到 一 起 时 ， 可 能 会 变 成 有 关 的 。 理 想 的 特征 子 集 应 该 是 特征 
之 间 组 合 起 来 能 够 正确 地 分 类 不 同 的 实例 的 互补 特征 集 。 
目前 , 虽然 许多 针对 特征 选择 的 算法 被 提出 ， 大 部 分 算法 
的 目标 只 是 降低 分 类 错误 率 。 特 征 数量 的 增加 虽然 可 以 降低 分 
类 错误 率 ， 但 是 过 多 的 特征 数 将 导致 分 类 变 得 困难 ， 也 不 利于 
后 续 的 数据 分 析 。 如 何在 提高 可 接受 的 分 类 错误 率 的 同时 ， 降 
低 特征 数量 ， 这 是 两 个 冲突 的 目标 。 多 目标 优化 技术 利用 算法 
对 这 两 个 目标 同时 优化 ， 可 以 得 到 一 组 多 目标 最 优 解 ， 也 就 是 
柏拉图 前 沿 解 。 通 过 对 这 些 解 的 进一步 分 析 ， 可 以 折 中 选择 特 
征 数量 较 少 ， 但 分 类 错误 率 相对 较 低 的 特征 组 合 ， 用 于 实际 的 
分 类 应 用 中 。 
本 文 研究 的 多 目标 特征 选择 问题 以 分 类 错误 率 fi 和 特征 数 
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其 中 : 


量 户 作为 两 个 分 类 优化 目标 ， 定 义 如 下 ; 


最 小 化 FG) 2Lf CO. f, 09] (9) 
FP+ FN 
de (10) 
TP - TN + FP - FN 
f,4V| (11) 


XX C100 中 的 P 或 代表 观察 样本 (真实 样本 ) 属于 或 不 


m TAI. T 或 下 代表 预测 结果 。 如 果 该 样本 的 观察 与 预 
测 结果 一 致 就 为 7， 否则 为 "。 该 式 子 的 计算 值 就 是 分 类 错误 
率 。 式 (11) 对 应 的 是 被 选中 的 特征 集合 V 中 元 素 的 个 数 。 


针对 上 述 双 目标 特征 选择 优化 问题 ， 文 献 [12] 提 出 了 基于 
非 支配 排序 的 特征 选择 粒子 群 (ONSPSOFSO 算法 和 基于 拥挤 、 


变异 和 支配 的 特征 选择 粒子 群 算法 (CMDPSOFS) 算法 。 下 面 
先 介 绍 这 两 种 算法 的 实现 方式 ， 第 3 章 将 描述 本 文 提 出 的 改进 


算法 的 实现 。 
2.2 NSPSOFS 算法 
NSPSOFS 算法 将 基于 非 支配 排序 的 多 目标 粒子 群 算法 应 


— 


到 特征 选择 上 ， 其 中 两 个 最 重要 的 步骤 是 迭代 中 对 全 局 最 优 
解 (gbest) 的 选择 和 对 群体 的 更 新 。 在 每 次 迭代 中 ，NSPSOFS 
首先 评估 群体 中 每 个 粒子 的 适应 值 (特征 数 和 分 类 错误 率 ), 再 
根据 适应 值 确定 群体 中 的 非 支配 粒子 集 。 计 算 每 个 非 支配 粒子 
的 拥挤 距离 ， 然 后 将 非 支配 粒子 按 拥挤 距离 降序 进行 排序 。 更 
新 群体 中 的 粒子 时 ， 在 拥挤 距离 最 小 的 非 支 配 粒 子 中 随机 选择 


出 gbest， 而 个 体 最 优 解 (pbest) 则 是 粒子 在 每 次 迭代 中 都 不 被 
当前 粒子 所 支配 的 解 。 当 粒子 更 新 后 的 解 支 配 自身 的 pbest 时 ， 


则 替换 pbest. 
粒子 确定 了 pbest 和 gbest 后 ， 根 据 式 CIO (2) 更 新 自身 


的 位 


和 速度 。 更 新 后 的 粒子 与 更 新 前 的 粒子 都 被 添加 到 一 个 


集合 union 中 ， 然 后 在 union 中 将 所 有 粒子 根据 不 同 的 非 支配 
级 别 分 到 子 集 正 = (Fi, Fo, Fs... FD 中 ,上 代表 最 多 的 非 支 配子 
集 数量 。 清 空 群体 , 从 子 集 Fi 开始 将 其 中 的 粒子 添加 到 群体 中 。 


若 群 体 所 需 的 粒子 数 大 于 当前 的 非 支 配子 集 粒子 数 ， 则 将 当前 
非 支 配子 集 都 添加 到 群体 中 ， 否 则 ， 将 当前 非 支 配子 集 的 粒子 
按 拥挤 距离 降序 排序 并 添加 到 群体 中 ， 直 到 群体 的 粒子 数 达 到 
预 设 的 群体 规模 P。 

2.3 CMDPSOFS 算法 


于 NSPSOFS 更 新 群体 的 方式 存在 导致 粒子 多 样 性 减 小 


的 缺陷 ， 而 且 每 次 迭代 都 对 粒子 排序 会 导致 粒子 记录 的 pbest 


非 通 过 自身 的 解 产 生 ，Xue 等 人 (24 进一步 研究 了 添加 基于 


挤 、 变 异 和 支配 方法 的 多 目标 粒子 群 优化 算法 CMDPSOFS 。 该 
算法 更 加 符合 粒子 群 优化 算法 是 思想 ， 在 迭代 过 程 中 保持 了 粒 


子 局 部 最 优 的 继承 性 。 


图 2 给 出 了 CMDPSOFS 算法 流程 ,其 中 代表 群体 规模 。 


该 算 当 


使 用 一 个 领导 集合 (LeaderSet) 来 保存 非 支配 解 ， 每 个 


粒子 的 gbest 1E LeaderSet 中 用 二 元 竞赛 方式 在 拥挤 距离 最 小 的 
粒子 中 选择 。 在 每 一 代 群 体 中 的 非 支 配 粒子 对 LeaderSet 进行 


201811.00162v1 


" 
r 


IV 


hina 


C 


Ch inaXiv 合 作 期 gn 


RARA 李 教 ， 等 : 基于 差分 进化 的 多 目标 粒子 群 特征 选择 算法 Mis 
更 新 并 加 入 到 档案 集合 Archive 中 。 算 法 迭代 执行 ， 直 到 满足 持 了 算法 的 多 样 性 。 
停止 条 件 。 
开始 
开始 
初始 化 群体 、LeaderSet UR eh 
和 Archive 
是 
f 
对 粒子 x 的 第 i 维 向 量 使 不 进行 变异 
AX COO 进行 变异 ， 得 
在 LeaderSet 中 选择 gbest 到 变异 粒子 x 
第 ;个 粒子 根据 公式 (1) 
和 (2) 生 成 新 粒子 
Y 
对 新 粒子 执行 变异 操作 计算 变异 粒子 的 适 
Y 应 值 fw) 
计算 新 粒子 的 适应 值 并 
更 新 该 粒子 的 pbest 否 
y — fy Tf) — 
i=i+l 是 
粒子 xz 蔡 换 为 变异 粒子 w 丢弃 变异 粒子 


更 新 LeaderSet 并 把 非 支 
配 粒子 加 入 Archive 


图 2 CMDPSOFS 算法 流程 


Fig.2 Flowchart of CMDPSOFS 

CMDPSOFS 采用 了 变异 操作 增加 群体 多 样 性 。 
中 ，CMDPSOFS 将 群体 的 粒子 随机 等 分 为 三 组 : 

a) 第 一 组 不 做 任何 变异 ; 

b) 第 二 组 采用 均匀 变异 方式 , 总 特征 数 的 倒数 作为 变异 概 
率 ， 在 向 量 的 定义 域内 随机 取 值 得 到 变异 向 量 ; 

c) 第 三 组 为 非 均 匀 变 异 ， 变异 概率 与 第 二 组 相同 , 通过 随 
着 迭代 次 数 的 增加 ， 缩 小 变异 选 值 范 围 ， 每 次 在 范围 内 随机 得 
到 一 个 变异 值 ， 这 种 变异 方式 由 于 其 选 值 范围 会 随时 间 变 化 而 
变 小 ， 到 后 期 阶段 则 非常 局 部 化 。 


在 变异 步骤 


E 


3 ”基于 差分 进化 改进 的 CMDPSOFS-II 算法 


3.1 对 CMDPSOFS 的 改进 

本 文 提 出 的 CMDPSOFS-I 算 法 将 CMDPSO 算法 与 差分 进 

化 算法 中 是 变异 和 选择 方式 相 结 合 ， 应 用 到 特征 选择 中 。 在 

CMDPSOFS 算法 的 变异 步骤 的 基础 上 , 将 均匀 变异 算 子 蔡 换 为 

化 算法 的 变异 算 子 并 添加 了 差分 进化 的 选择 步 又 ， 有 具体 

流程 如 图 3 所 示 。 
CMDPSOFS-II 


差分 进 


使 用 差分 变异 算 子 对 粒子 进行 变异 时 , 如 果 
出 现 变 蜡 后 的 值 超过 变量 的 预 设 范围 [x, wd 时 ， 则 有 50% 的 概 
率 取 预 设 范围 的 中 间 值 , 即 (Utw2/2, 或 者 50% 的 概率 取 变异 前 
的 值 。 由 于 随机 选择 父 代 个 体 进行 差异 重组 ， 算 法 得 到 的 变异 
粒子 只 使 用 了 父 群体 中 的 两 个 随机 粒子 差异 向 量 进行 修正 ， 保 


图 3 差分 变异 流程 


Fig.3 Flowchart of differential mutation 


在 CMDPSOFS-I 的 差分 变异 中 还 增加 了 选择 操作 ， 
异 后 的 适应 值 优 于 父 代 适 应 值 时 ， 选 择 变异 后 的 粒子 ， 否 则 
择 父 代 粒子 ， 此 操作 加 快 了 算法 的 收敛 速度 。 


3.2 CMDPSOFS-I 算法 流程 
步骤 1) 初始 化 群体 、LeaderSet 和 Archive, 计算 LeaderSet 


中 粒子 的 拥挤 距离 ， 随 机 将 群体 中 和 
步 又 2) 按 预 设 和 


2.1) 对 群体 中 每 个 粒子 : 


i. 


ii. 


iii. 


iv. 


m 


选 


的 粒子 等 分 为 三 组 。 
KIERRE IT JI E 
在 LeaderSet 中 使 用 二 元 竞赛 根据 拥挤 距离 选 
择 粒 子 的 gbest 
更 新 粒子 的 速度 与 位 置 
执行 变异 操作 


1) 属于 第 一 组 的 粒子 不 进行 操作 
2) 属于 第 二 组 的 粒子 进行 本 文 提出 的 差分 变 


异 ， 评 估 变 异 后 粒子 的 适应 值 ， 若 变异 后 的 粒 


子 支 配 当前 粒子 ， 则 将 变异 后 的 粒子 替换 为 当 


前 粒子 


3) 属于 第 三 组 的 粒子 进行 非 均匀 变异 


计算 每 个 粒子 的 适应 值 
2.2) 确定 群体 中 的 非 支配 粒子 ， 并 / 


2.3) 将 LeaderSet 中 的 粒子 保存 到 A 


2.4) 计算 LeaderSet 中 每 个 粒子 的 
步骤 3) 计算 Archive 中 每 个 粒子 的 适应 值 (特征 


rchive 


， 更 新 粒子 的 pbest 
来 更 新 LeaderSet 


挤 距 离 


数 和 分 类 
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错误 率 ) 并 作为 结果 返 CMDPSOFS 在 每 个 数据 集 的 测试 中 都 能 至 少 得 到 一 个 分 

算法 中 的 惯性 权重 o 和 加 速 系数 cl 和 c: 与 CMDPSOFS 中 类 错误 率 小 于 使 用 全 部 特征 时 的 分 类 错误 率 的 特征 子 集 。 
的 设置 相同 ， 即 变异 率 为 LU. n 为 优化 问题 维 数 ， 也 就 是 特征 。 CMDPSOFS 使 特征 集 的 平均 特征 数 降低 到 总 特征 数 的 22%。 
数 。 差 分 变异 中 的 变异 因子 天 取 0.5。 其 中 在 数据 集 WBCD 和 Australian 中 ，CMDPSOFS 都 选择 了 

— 总 特征 数 的 7%， 即 在 WBCD 中 30 个 特征 选择 了 2 个 ， 在 
T. SESPEHUMSURQUI Australian 中 14 个 特征 选择 了 1 个 ， 同 时 分 类 错误 率 低 于 使 用 
4.1 数据 集 与 参数 设置 全 部 特征 时 的 分 类 错误 率 。 在 大 多 数 解 集 中 , 相对 于 NSPSOFS 

本 文 在 UCI machine learning repository08 中 选取 了 表 1 所 算法 , CMDPSOFS 得 到 的 非 支配 解 都 比较 多 且 分 布 均匀 , 而且 
示 的 数据 集 ， 每 个 数据 集 分 为 训练 集 和 测试 集 ， 分 别 为 总 实例 ”在 相同 特征 数 下 , CMDPSOFS 得 到 的 特征 得 到 的 分 类 错误 率 要 
数 的 70% 和 30%。 实 验 比较 了 本 文 提出 的 CMDPSOFS-II 和 比 NSPSOFS 要 低 ， 也 就 是 说 CMDPSOFS 得 到 的 特征 要 比 


LH 


NSPSOFSU?, CMDPSOFS!?,, frWUiXrB, MARRARA  NSPSOFS 得 到 的 特征 要 好 。 
持 向 量 机 来 对 数据 进行 分 类 训练 和 测试 ， 软 件 采用 的 是 在 CMDPSOFS-II 的 实验 结果 中 ， 在 每 个 数据 集 的 测试 中 
Chih-Chung 研发 的 LIBSVMII9]， 运 行 平台 为 Java。 都 能 至 少 得 到 一 个 分 类 错误 率 小 于 使 用 全 部 特征 时 的 分 类 错误 
表 1 数据 集 率 的 特征 子 集 .CMDPSOFS-I 平均 使 特征 集 的 特征 数 降 低 到 总 
Table 1 Data set 特征 数 的 14%。 在 数据 集 Vehicle 中 选择 了 总 特征 数 的 696 
数据 集 总 特征 数 类 别 数 实例 数 (1/18)， 即 只 选择 了 1 个 特征 ， 在 WBCD 中 选择 了 总 特征 数 
Wine 13 3 178 的 7% 〈2/30)， 同 时 分 类 错误 率 低 于 使 用 全 部 特征 时 的 分 类 错 
Australian 14 2 690 误 率 。 
Zoo 17 7 101 表 2 列 出 了 三 种 算法 在 测试 结果 中 错误 率 低 于 使 用 所 有 特 
Vehicle 18 4 846 征 的 最 小 特征 数 ， 括 号 内 为 分 类 错误 率 。 可 以 看 出 ， 
German 24 2 1000 CMDPSOFS-II 在 多 数 情况 下 能 得 出 更 低 的 特征 数 , 在 特征 数 相 
WBCD 30 2 569 等 的 时 候 ，CMDPSOFS-II 可 以 选 出 错误 率 更 低 的 特征 组 合 , 特 
Ionosphere 34 2 351 别 在 Hill-Valley 中 , CMDPSOFS-II 得 出 的 特征 数 和 错误 率 均 低 
Hill-valley 100 2 606 于 NSPSOFS 和 CMDPSOFS。 
42 实验 结果 对 tÉ CMDPSOFS-II 、 NSPSOFS 和 CMDPSOFS , 


根据 文献 [12]， 在 参与 测试 的 算法 中 ，vma=0.6， 种 群 大 小 CMDPSOFS 在 解 的 多 样 性 .特征 数 和 分 类 错误 率 的 优化 上 对 比 
N=30, fg Ki SO. T500, 用 来 决定 特征 是 否 被 选中 的 0=0.6。 ^ NSPSOFS 都 有 明显 的 优势 。 在 所 有 的 情况 下 ，CMDPSOFS-II 
在 NSPSOFS 中 ,惯性 权重 w=0.7298, 加 速 系数 019022 1.49618。 ”在 特征 数 和 分 类 性 能 的 优化 上 都 优 于 NSPSOFS ， 例 如 在 
在 CMDPSOFS 和 CMDPSOFS-II 中 ， 惯 性 权重 w 为 [0.1,0.5] 间 German 数据 集中 ， 当 特征 数 相同 时 ，CMDPSOFS-II 得 出 的 分 
的 随机 数 ， 加 速 系数 cl 和 cz 为 [1.5,2.0] 间 的 随机 数 ， 变 异 率 设 类 错误 率 比 NSPSOFS 低 。 除 了 在 Ionosphere 和 Australian, 
置 为 1n。 所 有 的 算法 都 在 测试 中 独立 运行 30 次 。 图 4 比较 了 ”CMDPSOFS 在 少数 解 上 优 于 CMDPSOFS-II 之 外 ,在 其 他 测试 
三 种 算法 最 优 的 非 支配 解 集 对 应 的 柏拉图 前 沿 。 图 4 中 的 曲线 。 中 CMDPSOFS-I 得 出 的 非 支 配 解 集 都 优 于 CMDPSOFS。 
分 别 表示 CMDPSOFS、NSPSOFS 和 CMDPSOFS-I 对 相应 数 CMDPSOFS-II 不 仅 继承 了 CMDPSOFS 的 群体 多 样 性 , 还 提高 
据 集 独立 运行 30 次 得 到 的 最 优 非 支配 结果 ,图 中 的 子 标题 表示 了 特征 数 和 分 类 性 能 的 优化 能 


anb 


数据 集 名 称 ， 括 号 内 的 数据 表示 总 特征 数 和 使 用 数据 集 全 部 特 表 2 错误 率 低 于 使 用 所 有 特征 的 最 小 特征 数 及 对 应 的 分 类 错误 率 
征 时 的 分 类 错误 率 。 使 用 全 部 特征 可 能 会 被 无 关 的 特征 影响 训 Table2 Minimum number of features with error rate lower than using all 
练 的 准确 性 ， 因 此 可 以 看 到 算法 优化 得 到 的 解 的 分 类 错误 率 有 features and corresponding classification error rate 
可 能 比 使 用 全 部 特征 得 到 的 分 类 错误 率 要 低 。 NSPSOFS CMDPSOFS CMSPSOFS-II 
首先 分 析 NSPSOFS 的 测试 结果 , 除了 Ionosphere, 在 其 余 Wine(13,37.8%) 2 (15.196) 2 (9.496) 1 (33.996) 
的 数据 集中 都 能 得 到 分 类 错误 率 优 于 使 用 全 部 特征 时 的 分 类 错 Australian(14,15.596) ^ 2(9.7%) ^ 1(15.590) 2 (2.8%) 
误 率 ， 且 特征 数 要 小 于 总 特征 数 。 特 别 地 , 在 WBCD 数据 集中 Zoo(17,16.196) 8 (16.1%) 5(16.1%) 4 (16.1%) 
只 需要 选取 10 多 的 特征 数 就 得 达到 比 使 用 全 部 特征 得 到 更 小 的 Vehicle(18,28.996) 3 (5.6%) ^ 10 (28.190) 3 (096) 
分 类 错误 率 ， 即 30 个 特征 种 选择 了 3 个 ， 在 Vehicle 中 只 选取 German(24,25.796) 6 (25.0%) | 6 (23.090) 2 (25.690) 
了 11% 的 特征 ， 即 18 个 特征 种 选择 了 2 个 ， 而 且 错 误 率 低 于 WBCD(30,14.0%) 3 (11.3%) 2 (9.4%) 2 (2.8%) 
总 分 类 错误 率 。 在 测试 的 数据 集中 , NSPSOFS 平均 能 将 特征 数 Ionosphere(34,17.1%) NA 12 (17.1%) NA 


减 小 到 总 特征 数 的 20%。 Hill-Valley(100,48.5%) — 29 (47.5%) 19 (48.296) 11 (46.5%) 


的 CMDPSOFS 算法 提出 
分 粒子 中 引入 差分 进 
CMDPSOFS-II 继承 了 CMDPSOFS 的 粒子 多 相 
程度 上 抑制 算法 随机 性 ， 提 高 了 变异 的 
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CMDPSOFS-II 是 基于 差分 进化 操作 , 针对 应 用 在 特征 选择 
的 优化 算法 。 由 于 在 群体 的 中 一 定 部 
化 操作 中 的 变异 和 选择 机 制 ， 使 
， 且 能 在 一 定 
加 快 了 
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有 效 性 ， 


CMDPSOFS 的 收敛 速度 。 
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